import os
import pandas as pd

# 定义文件夹路径
RAW_DATA_FOLDER = 'raw_data/'
CLEAN_DATA_FOLDER = 'clean_data/'

# 创建清洗后数据的文件夹（如果不存在）
os.makedirs(CLEAN_DATA_FOLDER, exist_ok=True)

# 处理文件夹中的所有 Excel 文件
for filename in os.listdir(RAW_DATA_FOLDER):
    if filename.endswith('.xlsx'):
        # 读取 Excel 文件
        file_path = os.path.join(RAW_DATA_FOLDER, filename)
        df = pd.read_excel(file_path, header=None, names=["时间", "文本内容", "场景", "标签"])
        
        # 提取并重命名所需的列
        cleaned_df = df[["文本内容", "标签"]].rename(columns={"文本内容": "text", "标签": "label"})
        
        # 保存清洗后的数据到新的 Excel 文件
        cleaned_df.to_excel(os.path.join(CLEAN_DATA_FOLDER, filename), index=False)

print("所有数据清洗完成，结果已保存到 clean_data 文件夹中。")
